全栈式机器学习(full-stack ML) 驱动的科技公司
巨浪中总卷着泥沙,不管我们愿不愿意全然接受,自从 2022 年的夏天开始,生成式人工智能(GenAI) 与机器学习 (ML) 领域的发展似乎即将(或者已经)越过一个临界点,从量变引起质变,冗余中正在涌现新的事物,至少是在人们的心理和观念层面激起的涟漪,将会改变很多事情。
勇敢乐观的人总会乐于学习新事物,并且融会贯通到自己的事业里。在这个时代,能打开新世界的大门,激起人们好奇心和希望憧憬的技术并不多,我自己最有热情去深入学习和实践的就是以合成生物学为代表的新的生命科学,以及人工智能与机器学习,他们非常复杂,但是又接近世界的本源。AI + Bio 结合的意义是为人类和生灵万物创造一个和谐共生且繁荣的未来。在人工智能有一天真正实现智能生物的超越之前,我相信它的使命是用数字世界积累的先进能力,帮助物理真实世界改善不可持续的体系和生态环境,以及进入到普通人生活的日常,让他们的身心更强,生活更好。
我想首先分享我对于人工智能和机器学习领域的一些观念,并且在未来的文章里进一步阐述,同时也边实践边观察他们的正确程度:
1. 就像过去 20 年特斯拉走过的路,人工智能未来将会驱动最大的机会在于科技还很少直接影响到的世界上规模最大的工业和消费市场。
AI/ML + 生物医药, 长寿科技, 心理健康,神经科学 = 个人化精准健康保健
AI/ML + 合成生物学 + 生物制造 + 先进材料科学 -> 去中心化自然资源和物质材料再生产 -> 生产方式到终端消费品革新 -> 未来的服装,家居,建筑,交通工具等。
AI/ML + 基因编辑 + 农业科技 + 机器人技术 + 蛋白质设计 + 合成生物学 + 3D打印 -> 农业生产方式到食品价值链革新 -> 消除代谢类疾病,增强身体机能
以上只是三个领域简要概括的例子。
在这些领域我相信会出现高度垂直集成的全栈科技公司( full-stack startups),简化缩短且重新设计以前产业的价值链条,创造新价值,并且捕获全新行业大部分的经济价值。
会卖很多卡的英伟达 CEO谈 ChatGPT。
2. 现在训练大模型最主要的数据来源于互联网,主要的组成是人的语言文本数据(打字),以及图像数据(拍照),未来高质量且全新维度的数据来源是什么?这是我想知道的一个问题。
在与AI4Science, AI+Industry 领域的一些研究者和工程师交流后,我现在的观点是:
未来最有价值也最巨量的数据来源于两个方面,
1)生命科学 Bio
2)人的身体和心灵 Human body and mind
更好获取和运用这两方面数据的公司,将创造巨大的价值,且拥有训练价值最大的 System of Intelligence 的能力。
在 OpenAI 这样的公司取得阶段性成功后,我们看到国内也有成功的企业家投入了基础模型的创业大潮,美国那边也出现很多 AI 生态当中“第一层应用的公司”,就像 iphone 刚出现时候,第一批应用随之而来的就是帮助我们创建新头像,剪视频,提高工作生产力的工具等等。但是我们如果放眼历史和更大的图景,我想最大化利用机器学习和人工智能进步能力的机会,可能在于那些更开阔但又被忽视的领域,现在的问题就是有多少人敢于去发现这些机会。
还有一个观点在今后的文章里我会继续分享,感谢和蔡耀旻博士的讨论确认了这一点:
最适合科技创业公司的机会,不应该是传统认知所说的 “ low volume,high margin (低市场规模,高溢价)” 的市场(比如医疗医药),也不应该是" high volume, low margin ( 高市场规模,低溢价)” 的市场(比如大宗工业原材料产品),而是 “ high volume and high margin” 市场,high volume 往往意味着世界上规模最大的消费者市场(衣食住行),high margin 是需要敏锐的市场洞察力和世界顶尖的产品能力去获取的。
下面让我分享我关注的一位聚焦在 “人工智能+生命科学技术” 领域的投资人Nathan Benaich 的博客文章,他是人工智能投资领域最资深的的意见领袖之一。未来我们需要最大化 leverage 利用机器学习的能力进步,作为创业公司,看起来难的路可能实际上是最容易的,他的观点也是认为有能力创建全栈式机器学习驱动的公司,是最好的获取价值的方式。
如果你想交流机器学习领域的模型训练和软件如何帮助合成生物学家,材料科学家等开发人员减少人工实验的工作流程以及 AI4Science, AI+Industry 的话题,欢迎通过微信找到我 2871981198,我也有一个由我筛选邀请的研究者和科学家组成的小社群,希望我们可以互相学习。
原文链接在文末。Enjoy!
建立一个全栈式机器学习公司的案例
The case for building
a full-stack machine learning company
原文作者:Nathan Benaich
翻译:范阳
这篇文章最初于 2019 年 9 月 5 日发表在金融时报的 Sifted.eu上。
在通往成功的道路上,一家初创企业必须解决两个关键问题。第一个问题是开发和销售一个为用户创造重大新价值的产品。第二个问题是获取该价值其中足够大的比例。
范阳注:value creation & value capture, 比如搜索引擎公司 Google 和社交网络公司 Meta 与航空运输公司(让人们可以自由飞翔到全世界)一样,都为这个世界上的人创造了同样巨大的新价值,但是他们捕获价值的能力是不一样的。以往纯技术公司只想着创造科技价值,而忽略了捕获商业价值的能力,而纯营销驱动的公司又缺少创造新价值的能力。
在网络市场、软件即服务(SaaS)业务、企业软件和消费者互联网产品的时代,已经有关于解决这两个问题的游戏规则。
然而,今天的企业正在一个新的战场上竞争,开发由机器学习(machine learning, 以下简称 ML)技术来独特实现的产品。这块新生的地盘还没有完善的游戏规则。
在这篇文章中,我提出了作为一个 "全栈式机器学习公司 "(full-stack ML company)运营的案例,以便最大限度地捕获经济价值。对于一个特定的问题," 传统的 ML 公司 " 会建立一个技术栈(组件或工具),然后将其出售或授权给现有公司。相比之下,一家全栈式 ML 公司创造了完全集成的 ML 产品,以端到端方式解决这个问题。
从我作为 Air Street Capital 的投资者,专注于人工智能为先的技术和生命科学公司的位置来看,我认为在 ML 中获取商业价值的最佳方式是通过全栈开发的方式,直接从你的模型预测能力中收取全部价值,而不是把机器学习模型当作软件一样收取服务费。
全栈式 ML 公司吃掉他们的行业问题价值链
Full-stack ML companies eat their problem value chain
在其最现实的实例中,ML 最好是作为一个自动任务解决者(automatic task solver)使用。为了说明这一点,让我们考虑监督学习的模式(supervised learning paradigm)。只要有足够的高质量训练数据,一个 ML 系统可以被训练成从它以前从未见过的真实世界输入数据中做出高质量的预测。这里重要的是系统输出的质量(quality of the system’s output )和系统可以部署的规模(scale at which the system can be deployed),同时仍然提供经济价值。创造的价值量将随着几个变量的变化而变化。这些变量可能包括用户类型(大型公司与小型企业),目标任务对他们的工作流程有多重要,这个工作流程与企业的利润或成本中心有多紧密,以及如果解决了这个任务环节的瓶颈,工作流程有多少可以被吃掉(缩短)。
例如,一家企业可能会购买由 ML 驱动的软件,以保护他们的员工免受网络安全威胁,而这些威胁是他们自己的 IT 部门所不能检测的。在这种情况下,传统的 ML 公司可能会提供新颖的建模工具或预先训练好的模型,以帮助 IT 部门开发一个自制的安全解决方案,或为他们现有的第三方软件解决方案的检测性能加 buff。相比之下,全栈式 ML 公司将端到端解决这个安全问题。它可能通过将数据收集、注释、探索、建模、工程、测试、系统集成和云 / 企业内部基础设施部署抽象为一个单一的产品,为用户提供威胁预测和解决方案。因此,全栈式 ML 公司的产品往往包含了传统 ML 公司所提供的上游或下游的解决方案组件。
全栈式 ML 公司的历史:直接实现预测能力变现
A history of full-stack ML companies: Directly monetizing predictions
ML 中的端到端问题解决模式并不新鲜。为了说明这一点,让我们考虑在过去20 年里这个主题的四次浪潮。
第一个实例(90年代至00年代)是在量化交易中。DE Shaw、Renaissance Technologies 和 Two Sigma 等公司创建和策划金融市场数据,建立 ML 模型以产生交易策略,并通过他们自己的基金直接将这些交易货币化。他们并没有把自己的竞争优势作为软件卖给其他对冲基金。
第二次迭代(00-10年代)是在程序化广告(programmatic advertising)领域,这与量化交易没有什么不同。在这里,广告技术公司获取有关在线受众的数据,并对他们的行为进行建模,以预测显示哪些广告,从而优化其点击率。虽然有许多广告技术软件组件供应商,但大赢家是像 Criteo 和 The Trade Desk 这样的全栈式 ML 公司。
在第三次迭代中(10年代至今),我们已经看到全栈式 ML 公司在更多领域直接将他们的预测能力变现。例如,Affirm 和 Zopa 等消费金融公司使用 ML 系统对申请信贷的消费者的违约风险进行评分。这些公司直接根据这些预测进行贷款,而不是把他们的软件卖给银行来做同样的事情。对于在线零售商,Signifyd 不仅预测通过其市场运行的欺诈性交易,而且他们更进一步,在系统预测不正确的情况下提供财务担保。在客户服务方面,Afiniti 将客户的电话转给最匹配的支持人员,只有当电话创造了经济价值时才收费。在这些例子中的每一个,ML 系统输出的预测都与经济价值的创造直接相关。
现在有第四类全栈式 ML 公司,它们正在连接比特和原子的世界(world of bits and atoms.)。在这里,公司正在使用 ML 软件来发现物理真实产品和现实世界环境解决方案空间中的新的局部最大值。他们提供的解决方案超出了人类专业技术通过试错所能组合在一起的范围。例如,Zymergen 正在设计和改造细菌宿主(bacterial hosts),以制造无法从石化产品出发的各种新型材料。 Optimal Labs 正在建立室内农业控制系统,可以自动操作温室,优化植物生长和财务利润。LabGenius 和 Recursion Pharmaceuticals 正在将基于ML 的自动化实验生物学数据分析与基于 ML 的药物设计和性能预测串联起来,以开发人类疾病的新型疗法。最后,PolyAI 建立了一个最先进的 ML 平台来创建对话式代理,并将这个平台注入其拥有和运营的现有呼叫中心,以推动工作流自动化水平和盈利能力的提高,同时确保高质量的客户服务水平。
什么时候进行全堆栈是有意义的,有什么好处?
When does it make sense to go full-stack and what are the benefits?
建立一个全栈式的 ML 公司显然比建立一个传统的 ML 公司在操作上更加复杂,后者类似于我们今天所习惯的纯 SaaS 游戏。然而,对于那些跃升为全栈的 ML 公司来说,有许多好处。
高风险的实验
High-risk experimentation
在农业等实验成本高的环境中,客户非常不愿意使用新的工具,因为他们从事的是高杠杆率、低利润的业务。农民专注于短期收益,难以对使用可能帮助他们预测作物产量或检测影响植物的疾病的 ML 产品的风险进行定价。这个领域的初创公司作为全栈,也就是成为农民本身,ML 公司需要将更多与实验相关的风险(如财务损失和声誉损失)从农民客户手中接过去。因此,风险被分配给具有更大容忍度和长期主义取向的企业,即有风险投资支持的全栈 ML 公司,而不是具有短期主义思想的经营者/投资者的心态。
克服采用新技术的惰性
Overcoming adoption inertia
在最终价值来自于做出更好的运营或商业决策的问题领域,全栈式 ML 产品用端到端的 ML 决策( end-to-end ML decision-making)取代组织内部的人工决策(on-premise human decision-making)。全栈意味着可以抽象出大部分的中间决策点,否则需要大量的内部人类决策者,而且容易出错,操作缓慢。相反,人们可以专注于最有价值的最终决策。此外,让客户的运营人员采用新工具往往比让自己的运营人员采用新工具更难。其根本原因包括对变化的抵制,缺少激励机制,以及雇佣 "有前瞻性 "的运营人员(forward thinking operators)的能力。因此,抽象化这些采用新技术障碍有助于加快进入市场的节奏。
市场成熟度
Market maturity
ML 是一个相对新兴的行业,没有特别成熟的工具,但是却可以快速迭代。在这种情况下,从创造价值的角度来看,通常更有效的做法是走更多的路,成为全栈式公司并控制价值链。引用亨利福特(Henry Ford)的话说:"如果你想做得好,就自己做"。相反,当一个市场成熟时,买家有足够的知识将非核心功能外包给第三方。作为对可容忍的订阅服务费用成本的交换,买方获得了运营的灵活性和改进的整体产品性能。这导致了 API 优先平台的成功,如 Twilio(通信)、Stripe(支付)或 Algolia(搜索)。对于 ML 来说,这可能是多年以后的事情。让我们不要忘记,汽车和计算机行业花了几十年的时间来拆解其供应链。
商业壁垒
Defensibility
对最终用户关系有控制权的全栈式 ML 公司随着时间的推移变得更有商业壁垒,因为它们更难被复制。他们成为值得信赖的品牌,并获得他们所提供的经济利益的更大部分,这转化为对竞争对手的定价权。相比之下,低水平的、基于任务的 ML 产品随着时间的推移被标准化或减少了对其依懒性,这导致了利润的压缩。例如,公司客户往往从第三方 API 开始,用于文本、语音、图像和视频分析,以实验某一产品的假设。然而,如果这些假设已经显示了创造经济价值的重要机会,这些外部 ML APIs 往往被解除依赖,并被符合成为全栈标准的内部软件所取代。
价值归属问题
The value attribution problem
传统的 ML 公司通常将他们的核心技术或产品作为 API 或 SaaS 来销售。这种产品往往只解决了(某一行业)问题价值链的一小部分问题,他们专注于技术团队最熟悉的东西:设计和训练 ML 模型以进行高质量的预测工作。
从价值获取的角度来看,这种策略通过技术的标准商品化导致利润被压缩。更重要的是,这种模式当中全部是客户提供给他们数据、商业领域的知识和评估标准(即 "我来告诉你好的产品是什么样子"),渠道端也是客户带来的,即触达他们终端客户或内部用户的方式。ML 公司能带来什么核心价值呢?简单地说,这将类似于 "更好的数学"。使这一策略更加脆弱的是,ML 公司经常处理处在其客户核心竞争力边缘的预测问题,例如为银行承保信贷的客户风险评分。除非公司客户成熟到了解如何将这种技术部署到他们的终端产品中,否则这些公司就没有充分发挥其潜力,并使购买决策更加困难。
未来属于全栈式的发展!
It’s full-stack ahead!
互联网现在已经成熟到可以上升到只是包装成消费者、SaaS 或市场平台(marketplaces)的产品的低垂机会已经很少了。创造价值的新机会正在一些人所说的传统经济中出现(如工业、医药和农业领域)。在这里,ML 公司如果采用全栈式公司的方针,就有很大的机会创造定义一个新类别的业务机会。这些传统市场的现有参与者并不习惯于通过互联网购买软件,而且往往没有具有成本效益(即可扩展的)的分销渠道。全栈式 ML 公司有更大的机会踢掉现有的公司,并将自己安置为其领域的长期所有者。
原文链接:https://www.nathanbenaich.com/blog/the-full-stack-machine-learning-startup
唱片封面来源:J.Maya